神经影像数据相关统计学习方法的综述(2)
作者介绍
张疏影:中国人民大学统计学院本科生
孟祥宇:中南大学数学与统计学院本科生
本系列推文是基于综述文章Zhu, H., Li, T., & Zhao, B. (2022). Statistical learning methods for neuroimaging data analysis with applications, https://arxiv.org/abs/2210.09217. 该文章将在2023年发表在Annual Review of Biomedical Data Science,它详细地介绍了复杂神经影像数据分析的一些问题、挑战、及统计学习方法,其中大部分内容源于对该综述文章的翻译,由于其中涉及到很多神经影像学的专业术语,如有翻译或理解不到位的地方还希望大家指正。在此特别感谢原文的第一作者朱宏图教授对本译稿提出的宝贵修改意见。
往期回顾
四、神经影像数据的相关研究
近十年来,神经影像数据的收集呈指数级增长,这得益于来自不同机构, 如医院和国家卫生研究院,和私营部门的巨额投资(Miller等,2016;Littlejohns等,2020)。三十年前,大多数和神经影像相关的研究中,受试者的数量仅为几十人,而在最近的几项大规模研究项目中,受试者数量已增长至一万人甚至十万人以上。而且这些项目中,除了神经影像数据,它们还收集了其他许多类型的数据,包括遗传数据、行为数据、环境数据,电子病历,和临床数据等等,以便更好地了解神经精神疾病、神经障碍、阿尔茨海默症和中风的病理,和大脑发育等。最近,为了进一步地加强世界各地的研究人员在神经影像和影像基因组学方面的合作,一些大型公开数据集已经建立。接下来,文章简要回顾了四项大规模神经影像数据的相关研究(详细信息如图3所示),以及一个名为ENIGMA的影像基因组学计划。
图3:ADNI,HCP,ABCD和UKB研究的一些摘要信息
4.1阿尔茨海默病神经影像学计划 (Alzheimer’s Disease Neuroimaging Initiative, ADNI)该项目的网址为:https://adni.loni.usc.edu/study-design/ADNI是一个开创性地用神经影像等现代技术来研究阿尔茨海默病的项目。ADNI原来的目标是验证对AD临床治疗试验中有潜在用途的生物标志物(Weiner 等,2017)。ADNI是一项多中心、前瞻性的临床研究,主要用来支持调查和开发可能减缓或阻止阿尔茨海默病(AD)进展的治疗方法。来自美国和加拿大63个研究机构的研究人员通过临床、成像、遗传和生物样本标志物来跟踪AD的进展,这些进展包括从正常衰老、早期轻度认知障碍(EMCI)、晚期轻度认知障碍(LMCI)到痴呆或AD。ADNI的招募旨在模拟临床试验人群,其中参与者普遍受过良好教育,以白人为主,并且APOE4携带者的比例较高,这与MCI和AD临床试验的受试者一致。ADNI的参与者并不能代表老年人群中的“典型”受试者,因为AD病例的比例(23%)远高于美国AD的患病率。从2004到2023这20年期间,ADNI研究包括ADNI1、ADNI2、ADNIGO和ADNI3四个阶段,共收集了2723名年龄在40岁以上的参与者。该项目收集了所有受试者的基因组生物样本和基因分型,这些可以用于多基因风险评分和基于基因和网络的指标预测疾病进展。此外,该项目还收集了脑脊液(CSF)生物标志物,包括Aβ、t-tau和p-tau。在影像数据方面,ADNI1主要关注sMRI和PET,研究AD患者的脑形态和代谢变化。ADNIGO和ADNI2增加了高分辨率冠状面T2、灌注MRI、DWI和静息态fMRI (rsfMRI)。ADNI3包括了所有受试者的7个序列(sMRI、FLAIR、T2*GRE、DWI、rsfMRI、ASL灌注MRI和高分辨率冠状面T2快速自旋回波)。ADNI3的目标是研究tau PET、脑脊液生物标志物和功能成像对治疗的影响,推动新的免疫分析平台和质谱技术的发展,以提高脑脊液分析的可靠性,并加深我们对AD进展和病理生理学的理解(Weiner等,2017)。作为一个多模态纵向的AD研究,ADNI提供了许多关于AD不同方面的重要见解,强调了AD的病理生理学和疾病进展过程。
4.2人脑连接组项目 (Human Connectome Project, HCP)该项目的网址为:https://www.humanconnectome.org/lifespan-studies/HCP从2010开始,是一个开创性地开发神经影像技术来研究人脑的演变和病变的项目。它一个目的是为了开发出为大型项目定制的磁共振设备,以轻松地对大量受试者进行成像, 而另一个目的是为建立一个高质量脑MRI数据集。早期的人脑连接组项目(HCP-Y)收集了1200名21-35岁的健康成年人的数据,其中有一些同源和异源双胞胎,以及一些兄弟姐妹。HCP的主要目标包括(i)建立一个“脑网络图”,揭示健康成年人脑内部的解剖结构和功能连接,(ii) 促进脑回路对个体行为的变异性的理解,(iii)促进对大脑疾病的研究,如自闭症、AD和精神分裂症,和(iv)向学术界免费提供所有的研究数据(Van Essen等,2013; Bookheimer等,2019)。现在,它已经扩展到涵盖从新生儿到90岁以上的健康人群的研究,旨在量化中枢神经系统在整个生命周期中的演化和病变,以及映射到基础认知和行为。这些研究将包括HCP-B (HCP婴儿阶段:0-10岁;10,000+名受试者),HCP- D (HCP发育阶段:5-21岁;1350名受试者),和HCP- A (HCP老龄化阶段:36-100岁以上;1200+受试者)。所有HCP研究都是面板与纵向兼具的队列,并根据特定的准入和排除标准招募参与者,如年龄范围、出生体重、无重大疾病诊断和知情同意,并对一些参与者进行纵向随访观察。这种招募方法能确保样本反映了美国人口的种族、民族和社会经济多样性。HCP还收集了各种成像模式下的数据,包括DWI、rsfMRI、tfMRI、T1和t2加权sMRI和MEG/EEG。该项目还收集了认知、情感、运动功能和感觉等领域的数据,并针对不同年龄阶段收集了与大脑发育、衰老、认知和行为相关的不同主要因素。例如,HCP-A收集了血管负荷(如肥胖、高血压、吸烟)、风险基因状态(如APOE)、激素状态和生活方式因素(如抑郁、睡眠模式、社会及社区参与和逆境)(Bookheimer等,2019)。对于HCP-Y参与者,基因型数据来自1142名参与者的200万个SNPS,而对于HCP- Y队列之外的HCP参与者,其样本数据是在一些感兴趣的SNP区域验进行测定。HCP还将收集后续样本进行纵向评估。HCP有好几个优点:(i)在多模态成像中,最大限度地提高了成像数据的分辨率和整体数据质量,(ii)有多个跟AD相关指标的长期纵向数据,和(iii)有许多MCI转化成AD的受试者。
4.3 ABCD该项目的网址为:https://abcdstudy.org/about/ABCD研究是从2015开始,美国最大规模、最有前景的关于大脑发育和儿童健康的纵向研究,此研究从21个地点招募了大约11880名9-10岁的儿童,并要对他们进行了10年的跟踪研究,直到他们成年早期。这个项目对研究许多跨越发育期的精神疾病,如精神分裂,特别重要。该项目最初的目标是检查与药物使用发展相关的风险因素和弹性因素,后来扩展为识别潜在的生物标本、神经改变和环境因素,以及它们对整个青春期行为、大脑功能与结构,和一些精神状态和身体发育的影响(Karcher和Barch, 2021年)。ABCD研究采用多阶段概率抽样策略,招募符合条件的儿童,以尽可能最好地反映美国人群结构。然而,多数神经影像研究的中心在城市,这可能导致农村青年的样本代表性不足。ABCD的研究涵盖了个人信息、家庭结构、家庭社会经济地位、病史、精神/行为表现、生活方式(体育活动、睡眠、饮食)、药物使用(自我报告与筛查:酒精、尼古丁、大麻、咖啡因、可卡因和大麻)、暴露(空气污染和铅)、神经影像数据(sMRI、DWI、rsfMRI和tfMRI)和基因型数据。在基线和第一年随访期间,ABCD研究收集了年轻人的自主呼吸、唾液、尿液和头发样本,并对11,601名参与者的唾液和血液DNA样本进行了基因分型。ABCD研究为研究基因环境对青少年大脑,身体,和精神发育的影响提供了一个全面的平台。
4.4 UKB该项目的网址为:https://www.ukbiobank.ac.uk/UKB是一项从2006开始,并是目前最大规模和最全面的前瞻性队列研究,它招募了来自英国22个研究中心的50多万名年龄在40到69岁之间的被试者。它旨在激发世界各地医学研究者的想象力,以更好地了解、预防和治疗一系列常见疾病。此研究收集了参与者的广泛表型和基因型信息,以问卷的形式获取了包括关于健康和生活方式、身体测量、样本测定、加速测量、多模态成像、全基因组基因分型和与健康相关的纵向随访的数据。UKB成像研究是迄今为止世界上最大的多模态成像研究,超过5万名参与者接受了评估(Littlejohns等人,2020),包括大脑sMRI、大脑fMRI、大脑DWI、身体MRI、低剂量x射线骨骼和关节扫描以及颈动脉超声。截至2022年,研究人员分别可获得50万、47万和20万参与者的基因型数据、全外显子组测序和全基因组测序数据。最后,研究人员收集了超过19,155个诊断术语,包括住院情况统计(HES),并使用国际疾病分类第十版(ICD-10)代码进行记录。预计将对参与者进行20年的纵向随访,随着新的临床结果的出现,疾病危险因素的识别也会相应增加。UKB数据集为揭示大脑结构和功能、衰老和各种疾病的遗传基础提供了独特的机会。在招募过程中,研究人员向9,238,453名年龄在40-69岁之间的个人发送了邮件邀请,他们均是居住在距离英国22个评估中心25英里以内,邮件邀请的回复率为5.5%,受试群体可能存在明显的选择偏差,包括与一般人群相比,UKB样本具有更高的社会经济地位、更好的教育和健康状况,这导致了关于UKB结果普遍性的争论。然而,正如Batty等人(2019)报道的那样,UKB的许多发现似乎可以推广到英格兰和苏格兰。
4.5 通过Meta分析增强神经影像遗传学ENIGMA (The Enhancing NeuroImaging Genetics Through Meta-Analysis)该项目的网址为:https://enigma.ini.usc.edu/ENIGMA是一个全球计划,由来自43个国家的成像基因组学、神经学和精神病学领域的1400多名科学家组成,主要进行一系列大规模的人脑研究,这些研究整合了基于sMRI、DWI、和fMRI的数据、遗传数据和来自全球70多家机构的众多患者群体的数据(Thompson 等,2020)。ENIGMA于2009年12月启动,最初的目标是通过整合神经成像和遗传学两大数据源来发现遗传因素对大脑系统的影响。ENIGMA的主要目标包括(i)推动成像遗传学领域的发展,(ii)确保有前景的和可重复的发现,(iii)共享数据、想法、方法、算法和其他信息,和(iv)培训新的研究人员。该计划由超过50个包括基于诊断的、正常变异的和方法的团队(WGs)组成。在2014年,ENIMGA考虑了9种靶向性疾病,包含精神分裂症、双相情感障碍、重度抑郁症、强迫症、注意缺陷与多动障碍、自闭症谱系障碍、物质使用障碍、22q11.2缺失综合征以及人类免疫缺陷病毒对大脑的影响。在此之后,该计划建立了更多专注于特定疾病的团队,包括焦虑症、自杀想法和行为、睡眠和失眠、饮食障碍、易怒、反社会行为和分离性身份识别障碍。除了基于诊断的团队,正常变异的团队、该项目还研究大脑发育、正常衰老、性别差异、睡眠模式和早发性精神病,而基于方法的团队则在生成DWI测量、解剖形状测量和数据协调方面发展了新的研究方向。到目前为止,ENIGMA在促进鲁棒性和可重复性、制定方法学标准以及推动神经科学研究和临床转化等方面产生了巨大的影响。
参考文献
[1] Batty, G. D., C. R. Gale, M. Kivimäki, I. J. Deary, and S. Bell (2019). Generalisability of results from uk biobank: Comparison with a pooling of 18 cohort studies. MedRxiv, 19004705.
[2] Bookheimer, S. Y ., D. H. Salat, M. Terpstra, B. M. Ances, D. M. Barch, R. L. Buckner, G. C. Burgess, S. W. Curtiss, M. Diaz-Santos, J. S. Elam, et al. (2019). The lifespan human connectome project in aging: an overview. NeuroImage 185, 335–348.
[3] Karcher, N. R. and D. M. Barch (2021). The abcd study: understanding the development of risk for mental and physical health outcomes. Neuropsychopharmacology 46(1), 131–142.
[4] Littlejohns, T. J., J. Holliday, L. M. Gibson, S. Garratt, N. Oesingmann, F. Alfaro-Almagro, J. D. Bell, C. Boultwood, R. Collins, M. C. Conroy, et al. (2020). The uk biobank imaging enhancement of 100,000 participants: rationale, data collection, management and future directions. Nature Communications 11(1), 1–12.
[5] Miller, K. L., F. Alfaro-Almagro, N. K. Bangerter, D. L. Thomas, E. Yacoub, J. Xu, A. J. Bartsch, S. Jbabdi, S. N. Sotiropoulos, J. L. Andersson, et al. (2016). Multimodal population brain imaging in the uk biobank prospective epidemiological study. Nature Neuroscience 19(11), 1523–1536.
[6] Thompson, P . M., N. Jahanshad, C. R. Ching, L. E. Salminen, S. I. Thomopoulos, J. Bright, B. T. Baune, S. Bertol´ın, J. Bralten, W. B. Bruin, et al. (2020). Enigma and global neuroscience: A decade of large-scale studies of the brain in health and disease across more than 40 countries. Translational psychiatry 10(1), 1–28.
[7] V an Essen, D. C., S. M. Smith, D. M. Barch, T. E. Behrens, E. Yacoub, K. Ugurbil, W.-M. H. Consortium, et al. (2013). The WU-Minn human connectome project: an overview. NeuroImage 80, 62–79.
[8] Weiner, M. W., D. P . V eitch, P . S. Aisen, L. A. Beckett, N. J. Cairns, R. C. Green, D. Harvey, C. R. Jack Jr, W. Jagust, J. C. Morris, et al. (2017). The alzheimer’s disease neuroimaging initiative 3: Continued innovation for clinical trial improvement. Alzheimer’s & Dementia 13(5), 561–571.